查看原文
其他

观点回顾 | AI模型知识产权保护的技术进步与法律挑战


日前,由FATE开源社区发起的系列线上公开课——FATE 「LIGHT UP」计划第五期成功举办,微众银行首席人工智能科学家范力欣,开放群岛(Open Islands)开源社区委员会法律合规组组长、北鹏前沿科技法律研究院理事、副院长王青兰和开放群岛(Open Islands)开源社区委员会法律合规组副组长、对外经济贸易大学法学院助理教授徐美玲三位重磅嘉宾展开了可信联邦学习技术专家与前沿科技法律专家的尖峰对话,从各自专业领域分享及探讨了AI模型知识产权保护的技术突破与其面临的法律挑战。

以下为分享实录,FATE开源社区进行不改原意编辑整理:

一个AI模型从诞生伊始到落地应用的全生命周期中,存在着三大挑战,第一是AI模型诞生伊始,用于训练模型的数据是否合法合规,保护了数据安全、个人隐私和数据所有者权益;第二是AI模型诞生后,如何防止模型本身被窃取,避免商业利益损失和知识产权侵害;第三是AI模型的衍生品如何划分权利归属,且衍生品不能对他人造成侵权。这三大挑战需要依赖技术和法律层面的设计与协作来解决。

01

AI模型训练数据的合规挑战


数据常常被称为“人工智能的石油”,AI模型的诞生离不开海量的训练数据,如何保证训练数据的合法合规,在保护数据安全、个人隐私和数据所有者权益的同时,打破数据孤岛,训练出性能良好的AI模型呢?

训练数据的合规首先需要关注个人信息保护。处理个人信息,满足“知情同意”的原则非常重要,尤其是收集、处理敏感个人信息,需要严格遵循《个人信息保护法》等合规要求,在训练过程中,做好相应的“匿名化”工作。

训练数据的合规其次需要关注重要数据和核心数据。例如涉及国家利益和国家安全的数据,需要对这类数据进行识别和过滤。

除了常规的对数据进行剥离、过滤、识别等操作,还可以利用联邦学习等隐私计算技术,实现在原始数据不出域,保护重要数据、核心数据和个人隐私的前提下进行联合建模,且联邦模型性能良好。

训练数据的合规还需要关注知识产权。例如文字、音乐、图片等数据则可能受知识产权保护,如果擅自使用这些素材可能会招致侵权的指控甚至高额的赔偿。要调和AI的发展和保护知识产权之间的矛盾,以个人学习和研究为目的的“合理使用”是一个不错的突破口。

以上是模型训练者保证训练数据合规的“正向”角度,我们还需要考虑避免原始训练数据被攻击者倒推的“逆向”角度(如图中的逆向攻击例子)。同时,也有包括数据加密、脱敏等防御方法,来抵御这些攻击行为。魔高一尺道高一丈,对攻击和防御方法的持续研究,不断提高了AI系统的安全性。

02

AI模型本身的防窃取挑战


一个AI模型的诞生往往需要海量的数据、计算资源和人力成本,如果模型被窃取,可能造成巨额的损失,因此AI模型本身也是重要的保护对象。

模型本身涉及的保护对象首先是模型使用的算法,可以利用专利、著作权、商业秘密等手段对算法进行保护。王青兰认为,算法的独创性是非常突出的,因此属于著作权的保护范畴。

相对于算法,模型参数的保护也非常重要。范力欣表示,模型是从原始数据中挖掘出客观规律的范式,而AI模型通过学习得到的参数则是客观规律的总结。目前法律界对于参数保护的研究相对较少,参数的表现形式是数据,但与原始数据不同,参数具有独创性,因此传统的数据保护手段不完全适用。

徐美玲介绍了三个模型参数的保护途径,第一是采用类似保险箱或保险密码的手段,将模型参数作为商业秘密,通过《反不正当竞争法》进行保护;第二是通过软件著作权进行保护,著作权的优势是它是自动生成的,无需申请或授权;第三是通过专利进行保护,AI模型可以写成方法专利,或依托储存介质写成产品专利,近年来AI模型的专利申请量在不断升高。

从“应然”的角度,对于AI模型本身法律已通过以上三个途径给予保护,但从“实然”的角度,如何证明模型窃取、抄袭的存在仍存在困难。范力欣表示目前在技术层面已有突破,可以通过模型水印技术证明模型的权属。

以横向联邦学习训练深度神经网络为例,参与方在训练过程中嵌入私有水印,在进行所有权检验时,有“白盒”检测和“黑盒”检测两种方式。“白盒”检测需要访问模型参数,水印与参数深度绑定,一旦模型参数确定水也不可更改,对模型参数里面的一些特征进行识别即可以确定模型的归属,这类似于DNA检验亲子关系。“黑盒”检测不需要访问模型参数,仅通过远程接口调用AI模型服务,就可以验证接口背后的模型是否侵权。

“白盒”检测和“黑盒”检测可以结合形成完整证据链,比如最初通过“黑盒”检测怀疑模型是盗版或窃取的,提供足够证据后可以申请法院采取强制措施,深入考察模型参数,使用“白盒”检测,为法院判决提供完整的证据链。

03

AI模型衍生品的防侵权挑战


AI模型衍生品的种类非常丰富,涵盖了生活的方方面面,包括图片、视频、文本、虚拟数字人等。AI模型衍生品的防侵权涉及两方面的挑战:

一是如何保护衍生品知识产权,主要涉及著作权和专利。对于AI模型衍生品的著作权,我国目前在法律层面没有明文规定,司法实践中也存在一定争议,比如北京互联网法院的一个判例认为AI模型衍生品不构成作品,不受著作权法保护;而深圳南山区法院关于腾讯Dreamwriter的判例则认为AI模型生成的文字作品是享有著作权的。徐美玲认为应该摒弃作品只能由人来创作这个观念,AI模型作为人类的治理劳动成果,借由AI模型这个工具创作的衍生品也应属于作品。但在这个过程中,需要对人创作的作品和AI生成作品进行标注区分,尊重社会大众的知情权。

与著作权不同,对AI模型衍生品申请专利目前还很难。例如近期美国联邦巡回法院驳回了一个研究人员将AI模型作为专利发明人的两项发明专利申请,因为专利法明确规定只有人类才有资格称为专利发明人。除了美国,全球很多国家对此的态度都是非常严格的。

二是如何防止AI模型衍生品侵犯他人权益。例如目前利用AI模型可以生产以假乱真的视频,不法分子可能利用这种技术制造一些假新闻。通过找到假新闻是哪一个模型产生的,继而找到模型的所有者和使用者,来确认权属关系,可以对这类坏的应用加以追责和惩处。目前在技术层面,已有两种方法确认权属,分别是基于深度神经网络的DeepFake检测和向AI生成内容嵌入指纹用于溯源。

AI模型知识产权保护是一个跨学科的综合议题,需要人工智能、法律和知识产权保护等多学科专家共同进行研究和探讨,同时也需要在实践过程中积极寻找切实的解决方案。我们很高兴看到目前人工智能、法学理论和司法实践都在共同进步,为AI模型知识产权提供越来越全面的保护。


对话嘉宾简介:

范力欣博士,FATE开源社区特别顾问专家,微众银行人工智能首席科学家,研究领域包括机器学习、深度学习,隐私计算和联邦学习、计算机视觉和模式识别,图像和视频处理等。范博士是70多篇国际期刊和会议文章作者,还是在美国、欧洲和中国提交的百余项专利的发明人。

王青兰博士,开放群岛(Open Islands)开源社区委员会法律合规组组长,北鹏前沿科技法律研究院理事、副院长,法学博士,计算机科学与技术博士后,在前沿科技与政策法律研究方面具有丰富经验。

徐美玲博士,对外经济贸易大学法学院助理教授,北京大学法学博士,中国科技法学会人工智能法专业委员会特聘研究员,开放群岛(Open Islands)开源社区委员会法律合规组副组长。研究领域聚焦于知识产权以及数据、开源、智能科技、数字经济等法律问题研究。


点击下方获取直播课完整视频


【关于FATE「LIGHT UP」计划】

 

随着我国开发者数量及开源贡献度快速增长,中国开源行业发展迈进世界前列。FATE(Federated AI Technology Enabler)开源社区作为全球首个隐私计算、联邦学习开源社区,基于“开源开放、共力创新”愿景,发起线上主题公开课FATE 「LIGHT UP」计划,汇聚联邦学习生态圈、多领域权威专家顾问及创新力量,一起点亮科创共建的理想之光。

社区现面向开发者、产业方、行研专家等全体生态伙伴发起讲师招募,分享让知识更具价值,非常期待您的加入!

详情点击:I  WANT YOU, FATE开源社区讲师招募~


【github直达】:阅读原文或复制链接https://github.com/FederatedAI/FATE即可,点击star,方便下次使用。

继续滑动看下一个
FATE开源社区
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存